本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。
资讯同步
文章同步
公众号:deephub-imba
公众号:奕凯的技术栈